Guide de programmation CUDA : Mappage entre matériel et logiciel : versions des capacités de calcul

La capacité de calcul (CC) agit comme un pont de gestion des versions entre architecture virtuelle (PTX) et architecture réelle (SASS/Binaire). Les développeurs utilisent nvcc pour cibler des plateformes spécifiques, allant des plateformes de bureau/serveur aux plateformes embarquées, selon des modèles de système d'exploitation comme Linux 64 bits (LP64) ou Windows 64 bits (LLP64).

1. Architecture virtuelle vs. architecture réelle

L'outil CUDA prend en charge les architectures GPU des deux dernières versions majeures, référencées dans Tableau 29 : Prise en charge des fonctionnalités selon les capacités de calcul (7.5 à 12.x). Nous définissons les mappages à l'aide de drapeaux comme : nvcc --generate-code arch=compute_80,code=sm_90 prog.cu. Pour les cibles orientées vers l'avenir, les drapeaux comme nvcc -arch=sm_100 ou des variantes spécialisées comme nvcc -arch=sm_100a sont utilisés.

2. La hiérarchie des macros

Le compilateur utilise __CUDA_ARCH__ pour effectuer des branchements dans le code. La macro __CUDA_ARCH__ n'est définie que dans le code périphérique (par exemple, __device__, __global__). Un contrôle plus précis est fourni par __CUDA_ARCH_SPECIFIC__ et __CUDA_ARCH_FAMILY_SPECIFIC__. Certaines fonctionnalités, comme mémoire partagée distribuée ou des charges utiles NaN, nécessitent une capacité de calcul 9.0+ ou une capacité de calcul 10.0 et ultérieure.

3. Limites et contraintes numériques

La précision varie selon la CC ; par exemple, le traitement des nombres sous-normaux garantit que $2^{-16382} \approx 3.36 \cdot 10^{-4932}$. Les limites matérielles telles que CUDA_DEVICE_MAX_COPY_CONNECTIONS=16 ou la directive .maxnreg directive PTX sont strictement appliquées selon la version CC cible.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Where is the __CUDA_ARCH__ macro strictly defined?

In both host and device code to identify the GPU hardware.

Only in device code (__device__, __host__ __device__, or __global__).

Only in the host-side main() function.

In the NVML API headers only.

QUESTION 2

Which command correctly targets a virtual arch of 8.0 and a real arch of 9.0?

nvcc -arch=sm_80,code=compute_90

nvcc --generate-code arch=compute_80,code=sm_90

nvcc --target=cc_8.0_9.0

nvcc -arch=sm_90

QUESTION 3

What is the consequence of declaring 'namespace cuda { struct foo; }' in CUDA code?

It enables high-speed memory access.

It is an error; the 'cuda' namespace is reserved.

It is required for using cuda::std::result_of.

It allows the use of __nv_atomic_load.

QUESTION 4

Which mathematical property is associated with CC 9.x and higher?

Support for 16-byte data types.

Basic support for fabs(x) and sin(x).

Introduction of the warpSize macro.

Ability to use x + y in kernels.

QUESTION 5

What happens when an extended lambda is defined inside a generic lambda using Microsoft Visual Studio host compilers?

It compiles successfully and inlines perfectly.

The host compiler may fail to inline or throw an error.

It enables __managed__ memory by default.

It triggers the on-disk JIT compilation cache.